首页> 外文OA文献 >Normalized Log-Linear Interpolation of Backoff Language Models is Efficient
【2h】

Normalized Log-Linear Interpolation of Backoff Language Models is Efficient

机译:退避语言模型的归一化对数线性插值是有效的

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We prove that log-linearly interpolated backoff language models can be efficiently and exactly collapsed into a single normalized backoff model, contradicting Hsu (2007). While prior work reported that log-linear interpolation yields lower perplexity than linear interpolation, normalizing at query time was impractical. We normalize the model offline in advance, which is efficient due to a recurrence relationship between the normalizing factors. To tune interpolation weights, we apply Newton’s method to this convex problem and show that the derivatives can be computed efficiently in a batch process. These findings are combined in new open-source interpolationtool, which is distributed with KenLM. With 21 out-of-domain corpora,log-linear interpolation yields 72.58 perplexity on TED talks, compared to 75.91 for linear interpolation.
机译:我们证明,对数线性内插后退语言模型可以有效且准确地折叠为一个标准化后退模型,这与Hsu(2007)矛盾。尽管先前的工作报告说,对数线性插值产生的困惑度低于线性插值,但在查询时进行规范化却不切实际。我们预先离线对模型进行归一化,由于归一化因子之间存在递归关系,因此非常有效。为了调整插值权重,我们将牛顿法应用于该凸问题,并证明可以在批处理过程中有效地计算导数。这些发现与KenLM分发的新开源插值工具结合在一起。使用21个域外语料库,对数线性插值在TED演讲中产生72.58困惑,而线性插值则为75.91。

著录项

  • 作者

    Heafield, Kenneth;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号